利用小波聽覺分頻處理與訊號子空間分解於車內噪音消除 (In-Car Speech Enhancement Using Wavelet Based Perceptual Filterbank and Signal Subspace Tracking) [In Chinese]
نویسندگان
چکیده
منابع مشابه
最小變異數調變頻譜濾波器於強健性語音辨識之研究 (A Study of Minimum Variance Modulation Filter for Robust Speech Recognition) [In Chinese]
本論文所探討的是語音特徵強健性技術,藉此改善雜訊環境下語音辨識的效能。我們利 用原始最小變異數調變濾波器法設計的環境失真目標函數,應用至求取濾波器之最佳頻 率響應上,進而發展出兩種特徵時間序列濾波器求取演算法,分別為基於最小變異數準 則之最小平方頻譜擬合法 (MV-LSSF)及基於最小變異數準則之強度頻譜內插法 (MV-MSI)。在這兩種方法中,利用我們所求得的濾波器之最佳頻率響應取代原始最小 平方頻譜擬合法(LSSF)與強度頻譜內插法(MSI)中所使用的濾波器,來得到欲逼近的目 標功率頻譜密度。從 Aurora-2 連續數字資料庫的實驗結果證實,這兩種基於最小變異 數準之調變頻譜正規化法,在各種雜訊環境下都優於傳統的兩種調變頻譜正規化法,而 得到更佳的辨識精確度。與基礎實驗結果相比較,MV-LSSF 與MV-MSI 所達到之相對 錯誤降低率分別為在 55.41%與 51.20%,顯...
متن کامل基於聽覺感知模型之類神經網路及其在語者識別上之應用 (Two-stage Attentional Auditory Model Inspired Neural Network and Its Application to Speaker Identification) [In Chinese]
根據神經生理學研究,耳朵會針對聲音的各個頻率進行分頻,並產生出聽覺頻譜,研究人 員根據專注聽覺現象和生物聽覺實驗,也發現了大腦聽覺皮質上神經作用的模式。於本論文中, 我們運用類神經網路,建構出一種模擬人類聽覺的類神經網路模型,並在語者識別這個應用上 進行討論,期望能成功連結神經生理學的知識與工程的技術。而我們所設計的模型,是利用兩 層不同維度的卷積神經網路(Convolutional Neural Network),分別模擬初期耳蝸階段及大腦皮質 階段,透過設計卷積核初始值,即耳蝸階段多組一維分頻濾波器和大腦皮質階段同時解析時頻 資訊的二維濾波器,以使模型能夠快速地達到收斂狀態。而透過模型訓練,根據目的與環境變 因的不同,模型會自動調整其中參數,使輸入資料映射至目標的型態。同時我們也針對所提出 的模型架構,進行了多種形態的比較,進而發現在給定初始值的狀況下,即使訓練不夠充分, 也能產...
متن کامل基於稀疏成份分析之旋積盲訊號源分離方法 (Convolutive Blind Source Separation Based on Sparse Component Analysis) [In Chinese]
本論文針對的是在不知道源訊號個數的情況下,一個稀疏欠定的旋積盲訊號源分 離。我們的演算法分為兩個階段,先估計混合矩陣然後才利用此矩陣分離源訊號。在 估計混合矩陣上,首先定義了兩個特徵參數,包括了 Level-Ratio 以及 PhaseDifference,我們藉由 KNN Graph 方式,去除資料中的離群樣本,並用 K-Means 分群 演算法對其餘的資料分群,然後應用 DOA 解決不同頻率間的排列問題,以達到估計混 合矩陣的目的。此外,我們對此混合矩陣進行相位之補償,以獲得更精確之混合矩陣 估計。本方法是建立於最大後驗機率方法上,在求得混合矩陣之後,利用最小 L1 範數 去解一個欠定的線性最佳化問題。此外,對於未知的源訊號個數,我們利用 K-Means 演算法和貝氏資訊準則作結合,並對所有頻帶的結果做整體考量,以達到估測源訊號 個數的目的。在實驗模擬的部分,會將我們提出的方法與...
متن کامل結合HMM 頻譜模型與ANN 韻律模型之國語語音合成系統 (A Mandarin Speech Synthesis System Combining HMM Spectrum Model and ANN Prosody Model) [In Chinese]
本論文研究了一種結合 HMM (hidden Markov model)頻譜模型與 ANN (articifical neural network )韻律模型的國語語音合成系統。在訓練階段,對各個訓練語料音框算出 DCC係數(discrete cepstrum coefficients),以作為頻譜特徵參數,接著對於一種音節的多 個發音,依 DTW (dynamic time warping)匹配出的頻譜演進路徑作分群,各群建立一個 HMM,並記錄各音節發音的文依性資訊。在合成階段,首先依據文依性資訊挑選出輸 入文句各音節的 HMM模型,接著判定音節 HMM的各個狀態為無聲、或有聲,然後使 用音長 ANN模型及狀態平均音長來決定 HMM各狀態應該產生的音框數。除了前人提 出的MLE(maximum likelihood estimate)法,我們另外研究二種內插方法來產生各音框的 D...
متن کامل結合β距離與圖形正規限制式之非負矩陣分解應用於單通道訊號源分離(Monaural Source Separation Using Nonnegative Matrix Factorization with Graph Regularization Constraint) [In Chinese]
本論文發展基於非負矩陣分解之單通道訊號源分離技術。有鑑於目前大多數非負矩陣分 解方法,在計算成本函數(Cost Function)時多採用歐式距離(Euclidean Distance)或凱氏分 歧度(Kullback–Leibler Divergence)等,而對於不同種類之未知訊號源,常因不同距離之 選擇而造成分離效果有落差。因此,我們引入 β 距離進行單通道訊號源分離,藉由 β 之調控,使原本固定的距離選擇變為更加地彈性。同時,我們考量到,在利用非負矩陣 分解進行訊號源分離時,混合訊號在高維度空間中隱含低維度平滑之流形(Manifold)分 佈,因此我們將圖形正規限制式(Graph Regularization Constraint)導入最佳化問題中,藉 The 2015 Conference on Computational Linguistics and Speech Pr...
متن کامل